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摘 要 : 提出 一 种 可 预测 判别 K-SVD 网 络 模型 (DKSVDN) 并 用 于 人 脸 识别 问题 。 该 模型 构造 了 一 种 新 颖 的 字典 结 
构 ， 包 人 钨 类 别 标签 字典 和 描述 字典 ， 以 兼顾 判别 和 重 构 性 能 。 相 应 的 稀疏 编码 向 量 由 标签 编码 向 量 和 描述 编码 向 量 
组 成 。 针 对 样本 稀疏 编码 时 间 效率 低 的 问题 ， 利 用 预测 神经 网 络 与 判别 字典 学 习 模 型 协同 训练 的 方法 来 加 速 预测 稀 
疏 编码 。 此 外 ， 针 对 DKSVDN 还 特别 引入 一 种 拟 梦 境 的 训练 方法 用 于 提升 模型 在 训练 集 多 样 性 不 足 时 的 和 便 棒 性 。 
通过 在 主流 人 脸 数据 集 上 的 对 比 实验 证 明了 该 模型 的 优良 性 能 。 
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Robust discriminative K-SVD network for face recognition 
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Abstract: This paper presented a novel discriminative K-SVD network (DKSVDN) for face recognition. It embedded 
discriminative information into traditional K-SVD algorithm by Special design of dictionary as well as sparse representation 
coefficients on the dictionary. The dictionary consisted of label Specific atoms and descriptive atoms, while Sparse codes 
contained one-hot label vectors and descriptive codes. In addition, as sparse representation algorithms were time-consuming, 
DKSVDN attached a co-trained feed-forward neural network to discriminative dictionary learning model to predict sparse 
codes. Moreover, with generative module in DKSVDN, this work also designed a new dreaming training phase to improve 
the robustness of DKSVDN for unknown pattern in known class. The experiment results on public face image datasets verified 
effectiveness of this method. 

Key words: dictionary learning; sparse representation; face recognition; neural network 


0 引言 了 一 种 基于 能 量 的 字典 学 习 模 型 ,通过 对 样本 图 像 训练 学 习 ， 
局 字典 学 习 模 型 表明 在 过 完备 字典 上 自然 图 像 具 有 十 分 紧凑 的 

近年 来 ， 针 对 基于 生物 特征 识别 的 身份 识别 技术 的 需求 ”稀疏 表达 (sparse representation) 系 数 ， 即 图 像 可 以 由 过 完备 字 
日 益 增长 。 人 脸 识 别 是 生物 特征 识别 的 重要 技术 ， 得 益 于 其 中 少量 的 字典 项 通过 线性 组 合 重 构 ， 而 这 很 可 能 就 是 大 脑 
无 须 接触 、 识 别 快速 以 及 方便 部 署 等 特点 ， 获 得 了 社会 各 界 ”视觉 皮层 V1 区 域 所 采取 的 编码 策略 。 同 时 , 在 文献 [20] 中 提 
的 广泛 关注 ， 并 迅速 成 为 了 计算 机 视觉 领域 最 为 热门 的 研究 出 了 一 种 三 元 交替 优化 结构 来 求解 模型 ， 优 化 过 程 具体 包括 
方向 之 一 。 人 脸 识 别 技 术 [1 引 最 初 基 于 几何 特征 对 比 ,， 随后 引 稀疏 编码 部 分 和 字典 构造 部 分 。 这 种 结构 葛 定 了 字典 学 习 的 
入 数据 驱动 的 算法 模型 ， 包 括 以 主 成 分 分 析 、 特 征 脸 为 代表 基础， 被 后 继 的 字典 学 习 算 法 普遍 采用 。Aharon 等 人 ?1 通过 
的 基于 机 器 学 习 的 人 脸 识 别 方法 全 切 以 及 基于 残 差 神经 网 络 、 ”探索 向 量 量化 与 字典 学 习 算 法 的 联系 提出 了 著名 的 K-SVD 
谷歌 网 络 等 深度 神经 网 络 的 深度 人 脸 识别 方法 2-11， 这 些 方 方法 ， 该 方法 通过 推广 K-means 算法 改进 了 基于 能 量 的 字典 
法 的 识别 精度 不 断 提升 。 然 而 ， 由 于 现实 环境 中 存在 大 量 的 学 习 模 型 。 K-SVD 算法 开创 性 地 在 字典 构造 阶段 引入 了 奇异 
不 确定 性 因素 ， 人 脸 识 别 算法 在 实际 应 用 于 现实 场景 时 需要 值 分 解 方 法 (SVD, singular value decomposition) 来 最 小 化 重 构 
轴 对 的 诸多 问题 更 为 复杂 ， 光 照 、 随 机 噪声 、 表 情 、 姿 态 和 误差 。. 相 较 于 已 有 字典 学 习 算法 存在 只 能 批 处 理 优化 的 局 限 ， 
装饰 遮挡 往往 不 能 在 训练 数据 中 得 到 充分 考虑 。 对 现实 场景 在 线 字 典 学 习 (ODL，online dictionary learning)P23 提 出 了 在 线 
的 不 充分 采样 严重 影响 了 数据 驱动 的 人 脸 识 别 算法 模型 的 识 ”训练 字典 的 方法 ， 在 现 如 今 海量 的 训练 图 片 更 具 优 势 。ODL 
别 效果 ， 成 为 了 当下 必须 解决 的 问题 。 利用 埃 范 数 约 束 模 型 的 稀疏 性 ， 在 字典 构造 阶段 采取 二 阶 优 

字典 学 习 (dictionary learning) 是 一 种 基于 压缩 感知 理论 ”化 求解 最 优 字 典 项 ， 这 使 得 随机 优化 和 小 批量 样本 优化 得 以 
(compressed sensing theory)08 的 生成 模型 ， 由 Olshausen 与 实施 。 字 典 学 习 的 算法 框架 是 在 图 像 重 构 领 域 获得 了 巨大 的 
Field09 于 1996 年 首次 提出 。 此 前 ， 在 生物 学 领域 中 关于 哺 。” ”成功 中， 许多 的 研究 者 将 目光 投向 了 热门 的 图 像 分 类 任务 。 
乳 动 物 的 视觉 机 制 的 研究 有 了 重大 突破 ， 研 究 发 现 ， 在 视觉 。 Mairal 等 人 5 提出 了 任务 驱动 的 字典 学 习 算法 (task-driven 
通路 上 的 很 多 神经 元 对 于 初级 视觉 和 中 级 视觉 中 的 特殊 刺激 ” ”dictionary learning)， 将 监督 信息 引入 了 传统 字典 学 习 ， 将 字 
有 选择 性 ， 例 如 ， 颜 色 、 纹 理 、 方 向 、 尺 寸 ， 甚 至 是 不 同 学 习 算 法 用 于 手写 数字 识别 。D-KSVD (discriminative K- 
视图 的 物体 图 像 。 基 于 这 样 的 事实 ，Olshausen 与 Field 设计 SVD) 扩展 了 K-SVD 算法 ， 将 字典 学 习 算 法 用 于 人 脸 识别 
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张 健 ， 等: 便 棒 可 预测 判别 字典 学 习 人 脸 识别 方法 
K-SVD 训练 字典 学 习 的 同时 训练 一 个 
分 类 器 用 于 图 像 分 类 的 任务 ， 其 在 多 个 人 脸 图 
上 都 展现 了 优异 的 性 能 ,Jiang 等 人 R51 基于 DKSVD 


像 数据 集 
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minlal s.t. |x-Dal, se 
其 中 ， 蛋 , 为 亚 范 数 ， 表 示 向 量 x 中 的 非 零 元 素 的 个 数 。 
稀疏 表达 解决 了 在 特定 字典 上 的 最 优 编码 问题 ， 然 而 ， 


G3) 


个 改进 算法 LCKSVD(Label ConsistentK-SVD)。LCKSVD 在 优秀 的 稀疏 编码 还 要 求 一 个 合适 的 字典 。 预 先 设计 好 固定 字 
DKSVD 模型 中 加 入 了 一 个 标签 回归 项 以 获得 更 强 的 判别 信 是 一 种 常用 的 方法 ， 但 是 设计 一 个 好 的 预 设 字典 往往 需要 
息 。 相 较 于 上 述 字 典 学 习 分 类 方法 使 得 稀疏 编码 携带 分 类 信 耗费 大 量 的 时 间 与 精力 ， 并 且 随 机 因素 对 结果 的 影响 较 大 。 
息 ,还 有 一 类 方法 则 构造 具有 判别 性 的 字典 , 其 基本 思想 是 : 此 外 ， 为 了 尽 可 能 地 涵盖 所 有 需要 的 特征 ， 预 设 字典 一 般 会 
针对 每 个 类 构造 该 类 的 字典 ， 而 样本 在 每 个 类 别 字典 上 重 构 ”设置 为 过 宛 余 。 为 了 克服 预 设 字典 的 各 种 缺陷 ， 字 典 学 习 售 
误差 往往 被 用 来 作为 分 类 依据 ， 即 样本 属于 重 构 误 差 最 小 的 法 被 提出 来 用 于 从 训练 数据 集中 学 习 最 合适 的 字典 。 

子 字 典 所 属 的 类 0 由 2。 值 得 一 提 的 是 ， 这 种 方法 是 建立 在 在 字典 学 习 问 题 中 ， 除 了 基本 的 稀疏 表达 求解 ， 还 需要 
样本 和 同一 类 的 样本 更 加 相似 这 个 先 验 认 知 上 的 。 这 一 类 方 ” 从 训练 集中 学 习 一 个 用 于 编码 的 最 优 的 字典 矩阵 D 。 记 训练 
法 的 起 源 是 稀疏 表达 分 类 方法 (SRC，sparse representation 样本 集 为 X=[%,%…,%JeR” ， 则 字典 学 习 问 题 可 以 被 表达 为 
besed classifieatio) ,SRC 宇 梯 利用 所 有 关 州 训 毕 样本 攀 半 min|X _ DAP sw fal < (4) 
判别 性 字典 来 编码 新 样本 。 它 在 分 类 任务 中 获得 令 人 惊喜 的 ee 

表现 , 但 SRC 的 缺陷 也 是 显而易见 的 : 为 提升 最 终 分 类 性 能 或 者 也 可 以 写 为 

所 需要 的 字典 规模 往往 过 于 庞大 。 随 后 ，DLSI(structural min Blal sr lx -DA < (5) 


进 ， 使 得 
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Wang 等 人 D9] 在 中 


距离 和 尽 可 


能 小 


类 别 字 典 和 通 


] 字 
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DLSPC 利 ) 


字典 兼 具 判 别 性 的 方 


个 结构 化 的 字典 ， 与 
码 系数 上 使 得 


其 中 ，*e 为 固定 阔 值 。4=[w, wo%]sR 是 X 在 字典 D 上 的 
稀疏 编码 矩阵 。 书 , 为 Frobenius 范 数 ， 用 于 计算 重 构 误 差 。 
本 文中 主要 考虑 式 (5)。 同 样 ， 由 于 含有 范 数 的 问题 求解 是 
非 凸 优化 问题 ， 式 (5) 不 存在 闭 式 解 。 在 基于 mm 范 数 的 字典 学 
习 问 题 中 广泛 采用 交 蔡 友 代 的 优化 策略 来 最 小 化 表达 式 (5): 
首先 固定 字典 Dp ， 计 算 基 于 当前 字典 


的 最 优 稀疏 表达 系数 矩 
阵 4;， 其 次 ， 固 定 稀疏 系数 矩阵 4 ， 优 化 字典 使 得 重 构 误 


Ea 


的 类 内 距离 ， 从 


是 出 了 一 种 同 订 


判别 性 的 细节 特性 
DLSPC 还 对 编码 加 以 约束 ， 使 得 样本 只 
上 进行 表达 而 抑制 在 不 


样本 在 每 


于 字典 学 习 模 型 依赖 于 稀疏 编码 ， 在 


规模 应 
利用 深度 
本 文 


新 颖 的 字典 结构 将 标签 信息 


类 子 字 


而 公共 字典 用 于 保存 


司 类 字典 上 的 表达 。 


上 重 构 误差 进行 分 类 ,然而 


实际 应 用 中 需要 额外 


的 计算 来 获取 编码 系数 ， 这 使 得 基于 字 


典 学 习 的 模型 难以 大 


] 。LeCun 等 人 [ 


39 尝 试 使 用 家 


得 了 较 好 的 效 
网 络 结构 来 模拟 范 数 求解 ， 
是 出 一 种 可 预测 判别 K-SVD 


经 


网 络 来 预测 稀 玻 编码 


。Wang 等 人 BU 提出 深度 编码 器 ， 


获得 稀疏 编码 。 
网 络 ， 通 过 设计 一 种 


联 入 K-SVD 算法 中 ， 使 得 稀 玻 


差 最 小 。 交 替 迭 代 两 个 步骤 ， 直 至 收敛 。 
训练 过 程 完成 后 ， 最 终 获 得 的 字典 D 在 测试 过 程 中 不 再 
变化 ， 用 于 编码 新 样本 ， 而 新 来 样本 的 编码 的 求解 则 变 为 求 
解 式 (2)(3)。 
K-SVD 作为 最 著名 的 字典 学 习 方 法 之 一 , 获得 了 广泛 的 
关注 。KSVD 算法 中 在 稀疏 编码 阶段 利用 匹配 算法 或 正 交 匹 
配 算法 求解 系数 向 量 。 在 字典 更 新 阶段 ， 式 (5) 中 的 矩阵 相 乘 
项 DA 被 分 解 为 有 个 秩 为 1 的 矩阵 。 更 新 过 程 中 ， 每 次 只 更 
新 其 中 一 个 矩阵 而 固定 剩 下 的 和 -1 个 矩阵 ， 如 此 逐个 优化 ， 
最 后 使 得 重 构 误 差 最 小 。 因 此 ， 重 构 误 差 项 可 以 被 改写 为 


天 2 
琉 — Dado =|E: -dat (6) 
j=1 F 


其 中 ， 只 代表 系数 矩阵 4 的 第 上 行 。 玉 表示 去 除 第 上 个 字 
项 后 ， 由 剩 下 的 字典 项 表达 样本 时 所 产生 的 重 构 误 差 。 利 用 


ll 


|X -DA = -x -Bdia)-dio 


编码 直接 包含 类 别 标签 ， 相 较 于 其 他 字典 学 习 分 类 ， 无 须 额 。 奇异 值 分 解 SVD 分 解 误差 即 B=VAV"， 取 U 第 一 主 分 量 即 
外 计算 即 可 直接 得 出 类 别 ， 并 且 该 字典 结构 将 细节 描述 性 信 第 一 列 作 为 字典 项 4 ， 对 应 地 ， 奇 异 值 矩 阵 A 第 一 行为 所 求 
息 剥 离 与 本 质 特征 分 开 存放 ， 字 典 的 解释 性 更 强 ， 并 能 用 于 Qa ,但 由 于 需要 保证 稀疏 表达 系数 地 稀 艳 性 ，KSVD 中 使 用 
生成 样本 。 同 时 ， 训 练 编码 预测 网 络 模型 ， 提 升 计 算 稀疏 编 。 了 一 个 小 技巧 ， 最 终 字 典 项 下 稀疏 系数 吃 =ALDxY ，AGD 
码 的 效率 。 此 外 ， 本 文 引入 一 种 拟 梦 境 训练 方式 ， 通 过 超 采 ”为 人 的 第 一 行 第 一 列 的 值 . K-SVD 在 不 同 的 测试 数据 集 以 及 
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在 主流 人 脸 图 像 数 据 库 中 的 实 
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1 ”相关 工作 


D=[d,d,…,dr]eR” 表示 字典 矩阵 ， 


中 ， 


元 素 向 量 。 在 经 典 的 稀 朴 表达 问题 
以 被 表示 成 这 些 原 型 元 素 的 线性 组 合 : 
X=Da = Aldi+Qd, 十 十 CQ4cd 


a=[e,e2.…,ar] 是 x 在 字 


于 字典 


为 了 获得 本 文 所 需要 的 最 终 解 ， 


中 具有 良好 的 表 


络 的 训练 ， 提 高 预测 
验 效果 证 明 本 文 提 出 
现 。 


其 每 一 列 为 一 个 字典 


中 , 一 个 样本 向 量 +eR" 可 


(1) 


Dp 上 的 稀 琉 表达 系数 向 量 。 
D 是 过 完备 的 ， 稀 疏 表达 问题 往往 有 无 穷 多 个 解 ， 
这 就 需要 对 对 原始 问题 设置 合 


适 的 稀 玻 约束 条 件 。 显 然 ， 稀 玻 表达 的 解 应 为 如 下 问题 的 解 : 


或 者 


minllaol s.t.x= Du 
a 


O) 


言 号 与 图 像 重 构 任 务 上 都 表现 出 了 较 好 的 性 能 。 
2 ”本 文 算法 

K-SVD 是 基于 mm 约束 的 字典 学 习 算 法 , 算法 框架 包含 稀 
琉 编 码 更 新 和 字典 更 新 两 个 子 步 又。 在 优化 过 程 中 ， 两 个 步 
又 交 蔡 和 迭代， 直至 收 公 。 通 过 观察 可 以 发 现 ， 整 个 优化 过 程 
隐 含 了 一 个 自动 编码 机 ， 其 中 稀 玻 编码 子 步骤 为 一 个 非 参 的 
编码 器 而 字典 重 构 的 部 分 则 为 线性 解码 器 。 

本 文 提 出 了 一 种 新 颖 的 判别 字典 学 习 模 型 ， 并 同时 构造 
经 网 络 预测 判 


了 一 个 前 向 凶 别 稀 跑 编码 系数 ， 以 提高 算法 时 
间 效 率 。 
2.1 算法 描述 


本 文 提出 判别 K-SVD 网 络 模型 DKSVDN(discriminative 
K-SVD network)， 在 原始 KSVD 基础 上 加 入 判别 信息 ， 并 提 
高 稀 玻 编码 的 计算 效率 ， 其 目标 函数 表示 为 
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min R(X,D, A) 

人 tvilel, 和 To,P(P;X,4)<e (7) 
其 中 ，R(X,D,4) 是 判别 字典 学 习 模 块 , lel 是 稀疏 约束 项 ， 
每 个 样本 对 应 的 稀疏 系数 向 量 中 取 值 非 零 的 维度 应 小 于 ， 
P(P;X,4) 则 是 预测 神经 网 络 模块 ，X 为 输入 样本 和 矩阵，4 为 
目标 稀 玻 和 矩阵， 了 为 前 向 神经 网 络 的 所 有 参数 的 集合 。 
2.1.1 判别 字典 学 习 模块 
稀 玻 表达 系数 具有 天 然 的 优良 特征 ， 其 能 很 好 在 图 像 重 
构 和 分 类 任务 中 都 表现 出 了 很 好 的 鲁 棒 性 。 然 而 ， 重 构 性 能 
和 判别 性 能 在 传统 字典 学 习 模 型 中 往往 很 难 兼顾 ， 本 文 设计 
了 一 种 新 颖 的 稀 琉 编码 与 字典 结构 ， 同 时 保持 两 种 特性 。 该 
模型 将 类 别 标签 幅 入 稀 跑 编码 中 ， 使 得 编码 包含 标签 编码 和 
描述 编码 两 部 分 ， 相 对 应 地 ， 对 应 的 字典 也 同时 分 为 了 标签 
字典 和 描述 字典 两 个 子 字 典 。 假 设 Y=[y,y…,y] 表示 标签 入 


| 


本 区 妾 


TOI 
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为 输入 ， 利 用 随机 梯度 下 降 (stochastic gradient descent,SGD) 
更 新 预测 神经 网 络 模块 的 参数 集合 人 也， 直至 收敛 或 者 到 达 固 
定 欠 代 步 数 。 
交 蔡 欠 代 步骤 a)b) 直 至 收敛 或 者 达到 固定 步 数 则 结束 。 
另外 ， 预 测 神经 网 络 模块 地 预测 值 可 以 作为 优化 稀疏 表达 的 
初始 值 作为 热 启 动 值 (warm start) 以 加 快 步 又 a) 的 收敛 速度 。 
2.3 拟 梦 境 训练 法 

已 知 类 别 未 知 模式 (unknown pattern in known class,UPKC) 
是 现实 环境 中 人 脸 识别 所 面 对 的 非常 广泛 也 非常 关键 的 挑战 
之 一 。UPKC 包含 多 种 人 脸 变 化 ， 包 含 但 不 限于 表情 变化 ， 
遮挡 变化 等 等 。 然 而 ， 不 同 于 广泛 的 人 脸 变 化 中 包含 大 量 的 
随机 信息 ，UPKC 更 关注 于 具有 规律 性 的 人 脸 变化 模式 ， 对 
于 人 脑 来 说 这 些 变化 往往 可 以 预测 与 想象 ， 可 以 从 一 个 类 别 
推广 至 所 有 类 别 。 有 具体 举例 来 说 ， 假 设 某 一 类 中 存在 一 种 独 


阵 ， 其 中 每 一 列 y%G=12…7 代表 训练 样本 xi 的 标签 向 量 ， 
y=[D 2 了 为 0-1 向 量 ， 其 中 为 类 别 数 , 若 属 于 第 ;类 
则 > 的 第 * 维 交 取 值 为 1， 其 他 维度 取 值 均 为 0。 那么 ， 稀 玻 
编码 向 量具 体 表示 为 <-|?]， 其中) 为 0-1 标签 向 量 ， a 为 指 
述 编码 。 标签 向 量 》 对 应 于 标签 子 字 典 Dp ，D, 包含 的 字 


有 模式 : 人 脸 上 戴 有 某 一 花纹 的 围巾 ， 人 类 大 脑 可 以 轻易 通 
过 该 张 图 片 与 其 他 人 脸 图 片 想 象 出 其 他 类 别 中 戴 有 相同 围巾 
的 人 脸 图 片 ， 但 是 对 于 统计 机 器 学 习 算法 ， 由 于 其 他 类 别 均 
缺失 该 模式 ， 该 围巾 反而 会 被 学 习作 为 类 别 特征 ， 从 而 出 现 
错误 分 类 。 类 似 的 模式 有 配 戴 黑 镜 ， 不 同 程度 地 笑容 等 等 。 


数 和 类 别 数 相同 ，w 对 应 的 描述 字典 为 D, 。 标 签字 典 D 用 
捕获 每 一 类 中 最 为 本 质 的 特征 ， 这 些 特征 一 般 代表 了 类 别 
特性 ， 位 于 类 别 中 心 ， 描 述 字典 D 则 用 于 保存 无 关 类 别 信 
的 特征 ， 这 些 特征 可 能 出 现 于 任何 类 别 的 通用 特征 ， 用 于 描 
述 图 像 中 的 细节 信息 。 因此， 字典 具体 表示 为 P=[D,D,] ， 痢 
别 字典 学 习 模块 定义 为 


A 
淋 
准 


xx.p.w-l -to.0 2 | (8) 


F 


2.1.2 预测 神经 网 络 模块 

给 定 输 入 样本 图 像 x， 预 测 神经 网 络 模块 用 于 快速 预测 
样本 的 稀疏 系数 。 相 较 于 传统 稀 玻 编码 方法 利用 迭代 优化 求 
解 稀 玻 编码 而 在 测试 阶段 需要 花费 较 长 时 间 计 算 时 间 且 时 间 
长 度 无 法 预测 ， 预 测 神经 网 络 模块 使 用 参数 化 的 模型 : 神经 
网 络 。 结 合 非 线性 激活 函数 ， 神 经 网 络 具有 强大 的 近似 拟 合 
能 力 ， 并 能 有 效 大 幅 减少 计算 时 间 ， 在 可 预期 的 时 间 内 给 出 


于 采集 所 有 人 的 人 脸 图 像 的 所 有 模式 显然 是 不 可 能 的 任务 ， 
姑 此 ，UPKC 是 必须 面 对 的 与 解决 的 问题 。 
为 了 提高 DKSVDN 针对 UPKC 的 鲁 棒 性 ， 本 文 设 计 了 
新 颖 的 拟 梦境 训练 方法 。 拟 梦境 训练 方法 的 思想 十 分 类 似 于 
人 类 做 梦 的 过 程 与 作用 。 文献 [33] 中 首次 提出 了 相似 的 思想 ， 
主要 用 于 训练 亥 姆 霍 效 机 (Helmholtz machine)。 之 后 , 同样 的 
方法 亦 被 用 于 训练 深度 信念 网 络 (Deep Belief Networks, 
DBN)694。 如 前 所 述 ，DKSVDN 模型 中 包含 了 特殊 结构 的 字 
， 该 字典 由 类 别 字典 和 标签 字典 组 合 构成 。 相 对 应 地 ， 样 
本 在 该 字典 上 的 稀 玻 编码 分 为 类 别 标签 向 量 段 和 描述 向 量 段 。 
拟 梦境 训练 方法 充分 利用 了 DKSVDN 的 结构 特点 ， 在 稀 玖 
编码 空间 合理 推断 UKPC 的 稀疏 编码 向 量 , 借助 字典 生成 虚 
拟 训练 样本 以 训练 预测 神经 网 络 模块 ， 提 高 预测 准确 度 。 

拟 梦境 训练 方法 结合 DKSVDN 具体 步骤 如 下 : a) 收 和 外 
记录 样本 在 当前 字典 上 的 稀疏 编码 ; b) 拆 分 稀 玻 编码 中 的 扫 


= 


A 


较为 准确 的 稀疏 表达 系数 ， 以 便 后 续 任 务 使 用 。 本 文中 使 用 
多 层 前 向 全 连接 网 络 F(P,Z) 作为 预测 模块 模型 ， 为 了 获得 
稀 朴 性 ， 激 活 函数 采用 软 阔 值 函数 ， 因 此 ， 预 测 神经 网 络 模 
块 的 表达 式 为 


PP;X,A=|FD,X) -A (9) 
最 终 目标 函数 为 
y a 
X-[D,D,]| 
2 (10) 
ol ST,lF DP,X) -A <e 


综 上 所 述 ， 


min 
A.D,D 


Ss.t. VD 


述 编码 段 ， 整理 收集 至 描述 编码 池 中 ; c) 对 于 所 有 类 别 编码 
向 量 ,随机 选取 描述 编码 池 中 的 描述 编码 向 量 进行 拼接 组 合 ， 
生成 合理 推断 稀 疏 编码 向 量 ; d) 利用 生成 的 合理 推断 稀 疏 编 
码 向 量 结 合 字典 , 通过 式 (1) 生 成 虚拟 样本 ; e) 将 虚拟 样本 和 
对 应 的 合理 推断 稀 疏 编码 向 量 作为 训练 集 ， 训 练 预测 神经 网 
络 模块 。 
拟 梦 境 训练 利用 生成 字典 学 习 模型 在 稀 疏 域 进行 样 本 合 
成 。 相 较 于 已 有 的 过 采样 方法 ， 拟 梦境 训练 充分 考虑 了 样本 
的 合理 性 ， 使 得 虚拟 样本 空间 分 布 更 加 贴近 现实 样本 空间 ， 


其 中 ，* 为 固定 闪 值 。 利用 稀 玻 编码 分 类 时 ,首先 提取 稀 玻 编 
码 中 标签 编码 部 分 ， 标 签 编码 中 各 维度 中 表达 值 最 大 的 那个 
维度 即 为 测试 图 片 的 预测 类 别 。 值 得 一 提 的 是 ， 为 了 更 好 的 
预测 效果 以 及 避免 过 拟 合 ， 本 文采 取 协 同 训 练 的 方式 训练 预 
测 神 经 网 络 模块 和 判别 字典 学 习 模块 。 

2.2 算法 优化 求解 
标 函 数 显然 是 非 凸 的 ， 本 文 利用 交替 优化 的 策略 求解 
该 模型 ， 具 体 优化 流程 如 下 : 
a) 固定 字典 Dp，, 利用 正 交 匹配 追踪 (Orthogonal Matching 


Pursuit  OMP)E2 搜 索 最 优 在 当前 字典 上 的 最 优 稀 疏 表达 系数 。 


更 具体 地 ， 标 签 向 量 ?为 已 知 监 督 信息 固定 不 变 ， 优 化 目标 
为 最 优 描述 系数 部 分 wm ; 

b) 将 步骤 a) 获得 的 稀疏 表达 系数 作为 已 知 固定 值 ， 利 
用 K-SVD 算法 逐个 更 新 字典 项 ， 包 括 标签 字典 D, 和 描述 字 
D, 。 同 时 ， 将 稀疏 稀 疏 矩阵 作为 目标 值 ， 训 练 样本 和 矩阵 作 


有 效 提高 预测 神经 网 络 的 预测 准确 度 。 拟 梦境 训练 可 以 插入 
DKSVDN 模型 优化 过 程 中 任意 一 次 迭代 之 后 。 


3 ”实验 分 析 


3.1 实验 设置 
3.1.1 数据 集 介 绍 

为 了 验证 DKSVDN 在 不 同人 脸 识别 场景 中 的 性 能 ， 本 
文 在 主流 的 人 脸 数据 库 : AR 人 脸 数据 库 B5 与 Extend Yale B 
人 脸 数据 库 钙 上 进行 实验 。 

AR 人 脸 数据 库 采 集 了 126 个 人 在 不 同 条 件 下 的 人 脸 
片 样本 , 总 共 包 含 超过 4000 张 图 片 。 该 数据 集 内 分 为 了 两 
子 集 ， 两 个 子 集 在 不 同时 间 段 拍摄 。 在 AR 数据 集中 ， 每 个 
人 , 即 每 个 类 别 , 拥有 26 张 在 不 同 的 光照 条 件 下 拍摄 面部 照 
片 , 其 中 每 个 人 有 12 张 图 片 带 有 遮挡 ,有 具体 为 太阳 镜 遮 挡 和 
围巾 遮挡 , 其 他 14 张 图 片 无 遮挡 但 拥有 表情 与 姿态 变化 。 相 


> pa 
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较 于 Extend Yale B 数据 集 ，AR 数据 集 包含 了 除 光 照 以 外 的 


更 多 的 干扰 因素 ， 包 括 表情 与 姿态 的 变化 ， 面 部 遮挡 等 ， 这 
些 都 使 得 AR 数据 集 更 加 贴近 现实 环境 ， 也 更 具有 挑战 性 。 
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上 ，DLSI 每 个 类 别 的 类 内 字典 项 设置 为 5S， 其 他 设置 于 文献 
[25] 中 一 致 。 根 据 AR 数据 库 中 的 类 别 数 ，LCKSVD 字典 数 
目 设 置 为 500。N-PCA 中 使 用 最 近邻 分 类 器 (NN) 进 行 分 类 。 


在 本 文 实验 中 ， 使 用 了 由 该 数据 集中 120 人 的 3120 张 图 像 
组 成 的 AR 人 脸 数 据 库 的 子 集 。 其 中 ， 每 个 类 别 任意 选取 13 


让 体 实验 结果 如 表 1 中 所 示 , 显然 在 更 小 的 判别 字典 规模 上 ， 
DKSVDN 的 分 类 效果 明显 优 于 LCKSVD 和 DLSI。 此外， 本 


张 图 片 作为 训练 数据 , 剩 下 的 13 张 组 成 测试 集 。 所 有 图 像 的 
分 辨 率 统一 剪裁 为 40x50 像素 ， 并 进行 一 范 数 归 一 化 。 图 1 
展示 了 AR 数据 集中 的 部 分 人 脸 图 像 。 


图 1 AR 人 脸 数 据 库 中 人 脸 图 像 


Fig. 1 Face images from AR face database 
Extend Yale B 人 脸 数据 库 由 2414 张 正面 人 脸 图 像 组 成 ， 
包含 了 38 个 人 的 人 脸 图 像 ， 这 些 图 像 在 不 同 的 光照 条 件 和 
表情 下 拍摄 。 除 光照 外 ， 这 些 人 脸 图 像 的 变化 还 体现 在 表情 
变化 上 上。 其中， 每 个 人 大 约 有 59 到 64 张 图 像 ， 为 了 方便 处 


文 还 比较 了 不 同方 法 的 时 间 效 率 , DKSVDN 预测 类 别 所 需 时 
间 最 短 。 
表 1 AR 数据 库 人 脸 识别 实验 结 


Tab. 1 _ Experiment results on AR database 


算法 精确 率 /% CPU 耗 时 /s 
LC-KSVD1 48.08 0.0011 
LC-KSVD2 46.00 0.0009 

DLSI 62.85 0.0029 

FDDL 78.46 0.0035 
FDDL-LCSRC 80.33 0.0043 
RCSRC 66.89 0.0009 
N-PCA(NN) 33.63 0.0133 

OUR METHOD( 预 测 编 码 ) 80.12 0.0011 
OUR METHOD( 最 优 编码 ) 88.24 0.0016 


在 Extend YaleB 人 脸 数据 集 上 ，DLSI 每 个 类 别 的 类 内 


理 ， 本 文中 选取 Extend Yale B 人 脸 数 据 库 中 的 31 个 人 ， 每 
个 人 均 拥有 64 人 脸 图 片 ,总 共 1984 张 图 片 ,去 除了 7 个人， 
属于 这 些 人 图 片 均 不 足 64 张 。 其 中 ， 每 个 类 别 任意 选取 32 
张 图 片 作为 训练 数据 , 剩 下 的 32 张 组 成 测试 集 。 所 有 图 像 的 
分 辩 率 统一 剪裁 为 40X50 像素 ， 并 进行 范 数 归 一 化 。 图 2 
展示 了 Extend Yale B 数据 集中 的 部 分 人 脸 图 像 。 

oe -ne 


[uy 


图 2 Extend Yale B 人 脸 数 据 库 中 人 脸 图 像 

Fig.2 Face images from Extend Yale B face database 
3.1.2 参数 设置 
在 预测 编码 模块 中 ， 利 用 前 向 神经 网 络 作为 预测 模块 ， 
该 神经 网 络 具 有 两 层 结构 , 两 层 神经 元 的 数目 分 别 是 1500 与 
500。 字 典 项 的 数目 为 500, 其 中 标签 字典 项 的 数目 对 应 于 AR 
人 脸 数 据 库 与 Extended YaleB 人 脸 数 据 库 分 别 为 100 项 和 31 
项 。70 值 设置 为 15。 
3.1.3 分 类 模式 
本 文 所 提出 的 DKSVDN 模型 不 需要 训练 额外 的 分 类 器 ， 
体 类 别 信息 可 以 直接 从 稀 疏 编码 中 的 标签 向 量 部 分 读 取 。 
由 于 预测 神经 网 络 模块 不 能 获得 真正 完美 的 0-1 标签 向 量 ， 
忆 此 测试 样本 的 类 别 判定 为 表达 值 最 大 的 维度 对 应 的 类 别 ， 
数学 表达 式 可 记 为 


c=Imaxy 六 (11) 


其 中 ，》 为 预测 标签 向 量 ， 六 表示 了 第 * 维 的 取 值 。 利 用 训练 


字典 项 设置 为 15， 其 他 设置 于 文献 [25] 中 一 致 。 根 据 Extend 
YaleB 数据 库 中 的 类 别 数 ，LCKSVD 字典 数目 设置 为 496。 
N-PCA 中 使 用 最 近邻 分 类 器 (NN) 进 行 分 类 。 表 2 中 展示 了 在 
Extend YaleB 人 脸 数据 集 上 的 实验 结果 ， 在 分 类 准确 度 和 时 
间 效 率 上 依然 是 非常 优秀 的 。 

表 2 Extend YaleB 数据 库 人 脸 识别 实验 结果 


Tab.2 ” Experiment results on Extend yaleb database 


算法 精确 率 /% CPU 耗 时 /s 
LC-KSVD1 56.12 0.0012 
LC-KSVD2 88.24 0.0012 

DLSI 89.45 0.0020 

FDDL 93.75 0.0024 
FDDL-LCSRC 91.45 0.0043 
RCSRC 90.67 0.0010 
N-PCA(NN) 60.28 0.0126 

OUR METHOD( 预 测 编 码 ) 92.33 0.0012 
OUR METHOD( 最 优 编码 ) 97.24 0.0014 


3.2.2 拟 梦 境 训 练 实验 

鉴于 拟 梦境 训练 方法 针对 于 模式 众多 且 分 散 的 场景 ， 本 
文选 择 在 AR 人 脸 数据 库 上 验证 拟 梦境 训练 方法 对 DKSVDN 
的 提升 效果 。AR 数据 库 包 含 正面 人 脸 、 佩戴 墨镜 、 佩戴 围 巾 
三 种 模式 ， 又 因 该 数据 集 分 为 一 期 和 二 期 两 个 子 集 ， 本 文 取 
一 期 中 的 一 部 分 图 片 作 为 训练 集 。 一 期 中 包含 每 个 人 的 前 13 
张 图 片 ， 即 每 个 类 别 13 张 图 片 ， 其 中 正面 人 脸 7 张 , 佩戴 墨 
镜 3 张 ， 佩 戴 围 巾 3 张 ， 二 期 的 图 片 构成 与 一 期 相同 。 将 一 
期 中 的 所 有 个 体 分 为 三 个 组 别 分 别 是 ， 模式 齐全 组 ， 缺 失 墨 
镜 模 式 组 ， 缺 失 围巾 模式 组 。 模 式 齐 全 组 中 的 个 体 取 所 有 图 
片 ， 缺 失 墨 镜 组 取 正 面 人 脸 图 像 和 佩戴 围巾 模式 图 像 ， 缺 失 
围巾 组 取 正 面 人 脸 图 像 与 佩戴 墨镜 模式 图 像 。 一 期 中 的 其 他 


好 的 模型 ， 稀 琉 编 码 向 量 有 两 种 获取 方式 。 首 先 ， 可 以 利用 
预测 神经 网 络 模块 直接 预测 稀 跑 编码 向 量 。 为 了 获得 更 加 精 
确 的 稀 疏 编码， 依然 可 以 将 预测 稀疏 编码 向 量 作为 起 始 值 ， 
通过 KSVD 算法 优化 稀 玻 编码 向 量 。 这 两 种 计算 方式 在 后 续 
实验 同时 进行 测试 。 
3.2 ”实验 结果 
3.2.1 人 脸 识别 

本 文中 参与 对 比 的 算法 有 DLSI，LCKSVD ，FDDL， 
FDDL-LCSRCB6],，N-PCAB7, RCSRCG8]。 在 AR 人 脸 数 据 集 


图 像 以 及 一 期 中 的 图 像 均 用 作 测 试 集 。 为 了 更 加 直观 地 展示 
分 组 详情 ， 将 100 个 类 别 按 1 至 100 编号 ， 训 练 集 图 像 具 体 


组 成 如 表 3 所 示 。 
表 3 训练 集 具 体 构 成 情况 
Tab.3 The details of the training set 
类 别 正面 人 脸 佩戴 墨镜 佩戴 围巾 
1~40 包含 包含 包含 
41~70 包含 包含 不 包含 
70~100 包含 不 包含 包含 
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表 4 展示 了 预测 神经 网 络 模块 在 未 进行 拟 梦 境 训练 与 进 
行 拟 梦境 训练 地 DKSVDN 模型 在 测试 集 上 的 识别 效果 。 显 
然 ， 拟 梦境 训练 使 得 DKSVDN 在 识别 率 上 有 显著 的 提升 ， 
尤其 是 在 墨镜 模式 和 围巾 模式 两 种 遮挡 模式 下 ， 识 别 率 大 幅 
优 于 未 经 拟 梦境 训练 的 DKSVDN 模型 。 
表 4 ， 拟 梦境 训练 在 AR 数据 库 人 脸 识别 实验 结果 
Tab. 4 Experiment results on AR database with Dreaming /% 


二 


正面 人 脸 组 无 围巾 组 无 墨镜 组 
测试 模式 一 - i i i 
拟 梦 境 原始 模型 拟 梦境 原始 模型 拟 梦 境 原始 模型 
正面 人 脸 。” 94.29 93.93 93.33 92.86 78.10 78.10 
墨镜 89.17 87.50 94.44 93.33 83.89 80.56 
围巾 85.83 85.00 59.44 58.89 50.00 47.78 
4 ”结束 语 


可 预测 判别 KSVD 模型 DKSVDN 中 字典 结构 由 标签 字 
和 描述 字典 组 合 而 成 ， 相 对 应 地 ， 基 于 该 字典 的 稀 玻 编码 
句 量 分 别 包 含 了 标签 向 量 段 与 描述 向 量 段 ， 利 用 特殊 结构 的 
稀 玻 编 码 可 以 进行 快速 分 类 。 同 时 ， 模 型 训练 了 一 个 预测 
经 网 络 模块 用 于 预测 稀 朴 编码 ， 有 效 解决 了 传统 字典 学 习 时 
闻 效 率 低下 的 问题 。 此 外 ， 拟 梦境 训练 方法 有 效 提 升 了 
DKSVDN 在 样本 多 样 性 缺失 的 情况 下 的 鲁 棒 性 。 本 文 在 主流 
人 脸 数据 集 上 的 实验 效果 对 比 证 明了 DKSDN 模型 以 及 拟 梦 
境 训练 方法 在 复杂 环境 具有 优良 的 性 能 。 
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